【CVPR】Masked Autoencoders Are Scalable Vision Learners

发布日期：2022-09-23 返回

Masked Autoencoders Are Scalable Vision Learners

分享人：郭沛妮
研究方向：自监督表征学习
论文题目：Masked Autoencoders Are Scalable Vision Learners
论文作者：Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Dollar,Ross Girshick
作者单位：Facebook人工智能研究院
论文摘要：本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习者。我们的MAE方法很简单:我们掩盖输入图像的随机补丁，并重建缺失的像素。它基于两个核心设计。首先，我们开发了一个非对称编码器-解码器架构，编码器只对补丁的可见子集(没有掩码标记)进行操作，以及一个轻量级解码器，从潜在表示和掩码标记重建原始图像。其次，我们发现掩蔽高比例的输入图像，如75%，能够产生一个重要的和有意义的自我监督任务。这两种设计的耦合使我们能够高效地训练大型模型:我们加快了训练(3倍或更多)并提高了准确性。我们的可扩展方法允许学习具有良好泛化性的高容量模型：例如，在仅使用ImageNet-1K数据的方法中，一个普通的ViT-Hug模型达到了最好的准确性(87.8%)。下游任务中的迁移性能优于监督的预训练，显示出有前景的扩展行为。
原文链接：

点击此处